Reinforcement Learning

入门

Environment是确定的,还有一个Replay Memory来保存已被观测到的状态转移
他们的目标是训练一个discounted并且cumulative的Reward函数。他让更久之后的reward的重要性降低。

Q-learning的主要思想是,如果我们有了一个Q函数


$Q^*: State \times Action \rightarrow \mathbb{R}$

那么我们就能够知道我们应该能够采取什么样的动作。那么我们就能轻松地简历一个policy来最大话我们的rewards。

$\pi^*(s) = argmax_{a} Q^*(s,a)$

这里可以用神经网络来逼近这个Q函数。

这里还有用到一个fact,Q函数遵循Bellman equation


$Q^\pi(s,a) = r + \gamma Q^\pi(s^\prime, \pi(s^\prime))$
分享到